#política óptima

Muestreo Posterior Óptimo para Identificación de Políticas en Procesos de Decisión de Markov Tabulares

Muestreo posterior óptimo para identificar políticas en MDPs tabulares: método eficiente de aprendizaje por refuerzo para hallar la política óptima.